IDC时代,业务对网络容灾参与较少,主要依赖数据中心网络容灾建设程度;当到了云的时代,云服务商将底层网络能力产品化后,云上客户更多参与网络容灾建设,提升业务稳定性。 本文从云网络概述,云网络容灾复杂度以及典型案例来介绍云网络容灾建设。 1.云网络概述 云网络概述主要分为云服务商基础设施网络架构和云产品两部分,让云上客户更加深入了解云网络,用好云网络。 2)跨区或者跨地域云基础设施容灾能力。 通常云服务厂家数据中心建设均有容灾能力,这里建议还是选择大厂。 3)IDC到云上网络高可用建设。 混合云容灾模式,这里考虑到IDC和云上线路容灾情况,一般建议两条专线接入不同的POP点来进行容灾建设;同时建立VPN或者GRE公网逃生通道来紧急恢复业务。 image.png 3.2 混合云网络容灾 混合云网络容灾分为两个部分: 1)idc和云机房之间线路容灾,主要线路分为专线和VPN。
云容灾不仅提供数据备份功能,还结合计算、存储、网络等云服务能力,允许企业在云端快速部署容灾环境,并进行自动化业务恢复。二、传统容灾 vs. 云容灾在云容灾出现之前,企业通常采用传统容灾方案,如自建异地灾备中心或租用灾备机房。 相比之下,云容灾基于云计算技术,充分利用云平台的弹性和智能化能力,提供了一种更灵活、高效的灾备解决方案:对比项传统容灾云容灾基础设施自建或租用物理灾备中心依赖云服务,无需额外硬件成本投入高昂的硬件、机房 此外,云容灾还支持按需付费,避免了传统灾备方案中资源闲置的问题。3. 对于企业而言,合理规划云容灾方案,不仅是降低 IT 运营成本的有效手段,更是提升市场竞争力和业务稳定性的关键步骤。随着云计算技术的不断发展,云容灾将成为未来企业灾备体系的核心趋势。
本文结合云平台公网能力,从网络平台角度来分析容灾建设可行性。 2.公网出口容灾方案 2.1 IDC和云平台出口互为主备 正常情况下,IDC和云平台公网出口流量是烟囱式,互不交叉;当IDC公网出口异常,流量切换到云平台,同样云平台公网出口异常,流量切换到IDC。 云平台NAT网关不支持流量导入,需要企业在VPC自建流量转发系统,推荐流量出口选择直接绑定EIP模式,流量更可控。 整体公网出口容灾方案如下: image.png 2.1.1 云平台切换方案。 2.1.2 IDC容灾切换方案 正常情况下,IDC业务流量通过NAT访问公网,如上路绿色线条标识。 2.2 IDC机房公网出口容灾方案 正常情况下,IDC和云平台公网出口流量是烟囱式,互不交叉;当IDC公网出口异常,流量切换到IDC备用公网出口通道,同样云平台公网出口异常,流量切换到云平台公网出口通道
本文从容灾概念,决策因素,典型案例和方案对比进行说明,希望容灾方案的选择有所帮助。 1.容灾概念 将容灾这个词,分开来看“容”和“灾”。 典型案例 虽然这里对“容灾”概念进行扩展,一般指同地域以及跨地域粒度的容灾;以云上客户案例同时结合腾讯云产品能力,分别对同城容灾,异地灾备以及异地多活进行说明。 3.1 异地容灾 异地容灾的核心特征: 1)容灾范围:地域粒度的容灾。 2)流量分布:单地域承载100%业务流量。 3)数据存储:数据库以及存储均在异地做冷备,数据单向同步。 以下是云上某个金融公司异地容灾架构: 1)接入层和业务层均使用低配以及业务单台服务器部署方式,主要提升业务快速扩容能力,一方面主可用区异常,借助腾讯弹性伸缩AS能快速扩容,另一方面业务发布版本在不同地域保持一致 2)该数据层使用云上PAAS产品,云上产品均支持异地容灾能力,同时操作便捷。如CDB和COS均通过云上控制台按钮式方式建设异地容灾能力;而对于es通过ccr方式进行数据复制。
但是基于混合云部署的业务系统往往复杂性高,维护成本大,因此也为业务稳定性带来了不小的挑战,为保证业务的稳定性,进行有规律的容灾演练是一种科学的方式。 但是在复杂的混合云环境中进行容灾演练本身就比较复杂,涉及的云资源之多,进行混合云容灾演练的门槛高。 混合云容灾的必要性混合云结合了公有云和私有云的特点,因此在多云部署的环境中,负载均衡、数据安全、服务安全稳定以及扩容伸缩等方面都将变得更加复杂。 混沌演练对混合云容灾的价值体现腾讯云混沌提供了对云上资源类型CLB、CVM、专线、数据库等对象类型的故障,通过混沌演练可以了解云服务不可用时的业务表现,检验故障告警的有效性,同时也可以验证脱离公有云后自身私有云架构的容灾表现 如何快速进行混合云容灾混沌演练腾讯云混沌演练工程结合行业经验,生成了一个混合云容灾演练经验模板,可通过该模板快速生成演练:前往腾讯云混沌演练平台【概览】选择「混合云容灾演练」行业经验模版。
安全容灾解决方案同业务容灾解决方案的区别: (1)业务容灾解决方案倾向业务架构内因解决问题。 业务容灾问题发生的普遍原因是基于业务访问量,架构负载,业务逻辑等内部可用性层面导致,解决思路多以异地灾备,混合云多活灾备, 数据迁移同步等层面解决。 (2)安全容灾解决方案倾向安全行为外因解决问题。 安全容灾问题的普遍原因是基于外部安全攻击行为导致,解决思路多以数据灾备,主机灾备,安全防御,安全检测等思路解决。 安全的根本目的是:保障业务的连续性。 不能片面地为了“安全”而安全。 遭勒索攻擊的Colonial Pipeline花了大筆冤妄錢,換到不中用的解密工具:https://www.ithome.com.tw/news/144418 四.云安全方案架构 image.png 安全容灾方案是基础兜底 服务于 CIA全过程 五.云主机安全容灾解决方案 1.第一步:快照备份,全盘快照 (1)创建云上定期快照:https://cloud.tencent.com/document/product/362/
在至少有一个Leader存在的前提下,进行Zookeeper的在线增量、在线减量、在线迁移 在全过程中ZooKeeper不停止服务
数据存储容灾建设主要从数据可靠性和业务稳定性两个维度阐述。这两者有哪些区别呢? 企业通常使用数据存储产品主要为云硬盘(CBS)以及对象存储(CFS)。 1.数据可靠性 1.1 云硬盘(CBS) 云硬盘采用三副本的分布式机制,系统确认数据在三个副本中都完成写入后才会返回写入成功的响应。 1.2 对象存储(COS) COS将数据分散存储在城市中多个不同的数据中心,其中某数据中心故障了,多AZ存储架构依然可以为云上客户提供稳定可靠的数据服务,云上数据可靠性是12个9,即99.9999999999% 列举一下几个场景: 场景一: CBS快照跨地域能力建设 当前云平台CBS数据可靠性的能力在地域粒度,对于公司核心数据要求多地域备份时,需要业务通过调用云API来实现;高可用能力建设核心思路: 1.定期快照复制新
腾讯云跨地域容灾方案DNSPod+CLB.ppt D监控介绍:https://support.dnspod.cn/Kb/showarticle/tsid/16/ D监控切换规则:https://
随着业务对持续性要求越来越高,云上不少企业对跨AZ或多地域的容灾建设有强烈的诉求。 通常对组件容灾能力建设和验证会花费大量时间,如果测试不符合预期,对之前调研、部署以及测试人力和时间成本带来较大耗费。因此借助云平台能力“一站式”提升系统容灾能力,助力企业降本增效。 本文也平台容灾能力建设优势、云上容灾典型方案以及一站式构建三个方面来进行详细的说明。 1.云平台容灾建设的优势 借助云平台能力有效提升容灾建设效率,同时能减少建设成本。 1)降低容灾建设的技术门槛。 以腾讯云为例,构建同城双活的数据库单写整体业务部署架构: image.png 2.2 异地灾备 异地容灾主要满足客户数据安全需求。 以腾讯云为例,构建异地灾备整体架构: image.png 3.一站式构建容灾能力 关于云上容灾能力概况,以腾讯云为例如下: 产品 多可用区实例 多地域实例 CLB 1.控制台支持购买多可用区实例。
企业业务部署在云上,借助云平台的能力,企业几乎“零”成本拥有同地域数据备份的能力。 即使云平台在建设数据中心之前,会遵循机房建设标准来选址,但是对于极端情况自然灾害,例如地震,台风等等,对同地域备份安全能力有非常大的风险,因此本文重点阐述腾讯云对异地数据冷备解决方案。1. 2.2 云函数和存储桶复制结合实现方案数据备份:目前存储桶通过云函数集成了数据备份能力,通过云函数自动拉取备份文件,同时将数据备份到存储桶。 目前云函数支持备份产品如下:图片跨地域复制:目前云函数只支持同地域备份,即备份数据库和cos需要同地域,因此通过存储桶的跨地域复制能力,将对应的备份文件复制到异地的存储桶。 2.3 数据库备份服务数据库备份服务拥有一套完整的数据备份和数据恢复解决方案,具备实时增量备份以及快速的数据恢复能力,同时具备异地容灾能力。
无论业务部署在IDC还是云平台,对数据备份都是有强烈诉求。随着共享经济的不断深化,越来越多企业将自身业务逐渐的搬迁到了云上。 为了让企业能更好用好云平台的数据安全能力,本文重点云平台数据备份冷备能力,以腾讯云为例,主要从以下两个维度介绍:同城数据冷备能解决企业什么问题,达到怎么样业务容灾效果? ,数据备份存储在COS,具备地域级别容灾,RPO依赖于数据库备份周期以及时间。 本文小结同城冷备方案,在云平台的协助下,企业几乎0成本并拥有同城数据冷备能力来保障业务生命线。指标详细说明容灾能力具备同地域(不同可用区)数据备份能力,不具备不同地域的能力。 3.容灾演练能力建设,增加平时运维成本以及自动化工具开发功能。
3.云容灾优势 云容灾是一种基于云平台发展起来的服务模式。 云容灾结合云平台的计算、存储和带宽等诸多优势,相比传统容灾具备了多方面的优势: 基础设施减少 摒弃采购传统的灾备服务器,借助云平台供应商提供的计算和存储平台,或直接采用云容灾DRaaS应用服务。 4.云容灾级别和能力 参考传统容灾的级别划分,由于云容灾的基础设施采用了云平台,在云容灾的级别划分上,应用级和业务级的区别已经不大了,因此在这里将云容灾的容灾级别分为:数据级容灾、业务级容灾。 数据级云容灾:数据级云容灾是指通过云平台做数据的远程备份,在灾难发生之后要确保原有的数据不会丢失或者遭到破坏。 随着IT基础架构逐渐云化,容灾也面临着云化转型,不断涌现出更多的云容灾产品和方案。
灾难恢复(Disaster Recovery)阶段定位:灾难发生后的系统重建与容灾关系:现代容灾系统集成恢复功能二、容灾与备份的协同关系1. 功能互补性2. 典型故障应对案例1:数据库误删操作容灾系统同步删除→需从备份恢复案例2:机房级火灾容灾系统接管业务→备份用于数据追溯三、企业灾备体系规划策略1. 风险评估矩阵2. 应用层容灾虚拟化技术:VMware Site Recovery Manager容器化方案:Kubernetes跨集群调度中科热备创新:混合云灾备架构设计五、中科热备解决方案实践1. 政务云建设省级政务云平台:采用中科热备多云灾备方案满足等保2.0三级要求六、灾备体系演进趋势智能化监控:AI预测性维护(中科热备智能运维平台)绿色灾备:液冷技术降低PUE值量子安全:后量子加密技术集成零信任架构 建议企业根据业务特性选择"备份+容灾+恢复"的三维防护策略,定期开展灾备演练,真正实现业务连续性保障。
容灾系统在企业中给与数据安全系数相当高的保障,但是容灾系统倒是是什么,他们是什么意思?恐怕连正在使用容灾备份的网络管理人员都不能解释。本文用最浅显的语言给大家解释容灾备份到底是什么。 容灾不可少 那么建设了备份系统,是否就不需要容灾备份系统? 容灾不能替换备份 容灾系统会完整地把生产系统的任何变化复制到容灾端去,包括不想让它复制的工作,比如不小心把计费系统内的用户信息表删除了,同时容灾端的 用户信息表也会被完整地删除。 如果是同步容灾,那容灾端同时就删除了;如果是异步容灾,那容灾端在数据异步复制的间隔内就会被删除。这时就需要从备份系统 中取出最新备份,来恢复被错误删除的信息。 备份系统+异地容灾系统 这是一个较为理想化的容灾系统一体化解决方案,能够在很大程度上避免各种可能的错误。 容灾恢复等级 ? 灾难恢复层次 ? 灾备技术层次 ? 1.1 磁盘阵列灾备技术 ?
云容灾架构建设新范式——云上混沌工程 为了减少一个云厂商服务或者云产品不可用时给业务带来的影响,云容灾架构就是一个有效的方案,但是这仅仅是一个理论上可行的方案,事实是否真的有效呢? 有没有一个标准的范式可以帮助用云的团队验证容灾方案有效性,以及进行常态化的容灾稳定性建设呢?有,便是开展云上的混沌工程。 什么是云上混沌工程? 在云上开展混沌工程,可以帮助用户发现平时难以发现的容灾设计隐患并及时修复验证。将云上混沌工程纳入到业务系统的发展周期中是科学,有必要的。 腾讯云混沌异地多活容灾客户案例 上图便是一个针对云数据库腾讯云&用户IDC容灾混沌场景,通过引入「云数据库MySQL不可用」以及「云数据库Redis不可用」故障,模拟数据库单云灾难场景。 用于验证业务架构是否能够及时切换到IDC环境数据库,达到业务容灾要求。通过该云上的混沌演练,可以验证云上云下的容灾架构有效性以及故障应急处理机制是否合理,也可显著提高用户面对单云数据库灾难时的信心。
MSHA 云原生多活容灾解决方案 [1] ,也发布了混合云多活容灾产品能力。 混合云容灾目标 业务容灾需求归纳如下: 云上云下互容灾,切换 RTO 为分钟级。 期望云上云下相互容灾,继续发挥 IDC 的价值,且不 100% 依赖于云。 解决方案 结合业务容灾需求和混合云 IDC+云形态的特点,采用应用双活架构能够较好的满足业务容灾诉求。 改造内容 应用上云 选择跟自建 IDC 较近的阿里云地域,云上完全冗余的部署一套应用、中间件和数据库,以便搭建云上云下双活容灾架构。在这个 Demo 案例中,选择杭州 Region 作为容灾单元。 总结 在本篇文章中,我们介绍了 MSHA 多活容灾助力企业进行混合云应用双活容灾建设的实践案例,给出了容灾架构建设实践方法,同时利用 Chaos 故障演练产品注入真实故障,来验证故障场景业务容灾能力是否符合预期
综上所述,本文从云平台视角出发阐述应用层业务容灾建设,主要分为方案设计考虑纬度、复杂度以及云上客户案例三个方面。 1.应用容灾概述 1.1 应用部署 应用是否满足跨地域/可用区部署? 应用层调用链是否能接受跨区延时,如果业务无法接受跨区,该业务做容灾只能set化部署,这里需要强大中间件团队开发数据同步系统。 应用层调用链能接受跨区延时,一般以试点业务先观察,小步迭代方式逐步构建容灾能力。 容灾切换强依赖于调度系统以及配置系统稳定性。这里稳定性主要包括系统容灾能力和性能;遇到大规模故障,大量信息配置变更请求调度系统和配置系统要能扛住洪峰,是保障这个容灾方案的根基。 2.应用容灾复杂度 计算应用层容灾,主要考虑以下两个方面: 哪些节点执行任务。 这里要区分清楚哪些节点执行核心业务,这里会引入不同的复杂度。
共享存储或数据库主从模式 单元化架构(按用户/业务分片) 成本 专线成本较高,但存储配置可能更简单 异步复制带宽成本相对较低,但架构复杂度和改造成本高 主要优势 高可用、数据零丢失(RPO=0)、故障切换迅速 城市级容灾 2、容灾等级要求:同城双活可应对机房级故障。若需防范城市级灾难(如地震、大规模停电),则需异地双活。 3、成本预算:同城双活专线成本较高,但架构相对简单。
一般会考虑三种线下灾备方式: 1、本地容灾:业务高可用和读写分离,以提高业务连续性 2、同城容灾:兼顾业务连续性和数据安全,应对地区级以 3、异地容灾:以数据安全为目标,应对地区级数据风险。 传统模式下企业的数据容灾建设方案 灾备是一项综合系统工程,灾备技术涉及到数据的复制、数据及应用的切换、数据的删除、数据的加密与传输、数据存储等多个技术的具体应用,系统容灾建设中,最重要的是数据容灾,目前 阿里云数据容灾建设方案 随着云时代的到来,大多企业在公有云上建立自己的数据中心,或者在本地建立私有云,或者公用云与私有云结合的混合云,不管以什么形式存在,灾备的建设一定会考虑云的因素。 企业可用自己设计备份或灾备策略,实用数据库本身的技术,把数据容灾到云端,也可用实用云厂商的方案,在线下和线上之间进行灾备实施,或者在云山进行灾备设计。 腾讯云数据容灾建设方案 222.jpg 腾讯云数据灾备架构图 腾讯云数据灾备优势: ---- 1、高兼容性:同时支持虚拟环境和物理环境中的备份数据成功上云,覆盖主流虚拟机、数据库、邮件系统和非结构化文件